#atención dispersa

RhythmFormer: Explicación XAI de la atención periódica dispersa en rPPG

Descubre cómo RhythmFormer y las métricas de fidelidad SaCo mejoran la interpretabilidad en rPPG. Análisis cuantitativo de atención dispersa.

2026-06-15 · 2 min

Difusión video autoregresiva rápida con compresión de caché y atención dispersa

Acelera hasta 10x la difusión de video autoregresiva con compresión de caché y atención dispersa, manteniendo calidad visual y memoria constante.

2026-06-15 · 3 min

MiniMax Sparse Attention: eficiencia en contexto largo

Descubre cómo MiniMax Sparse Attention (MSA) reduce 28.4 veces el cómputo de atención en contextos de 1M tokens, logrando aceleraciones de hasta 14.2x en prefill y 7.6x en decoding en GPUs H800.

2026-06-12 · 2 min

MiniMax Sparse Attention: Eficiencia en Contextos Largos

Atención dispersa para contextos de 1M tokens: MiniMax Sparse Attention reduce cómputo 28x y acelera prefill 14x y decoding 7x en GPUs H800.

2026-06-12 · 3 min

Sparrow: Rollout disperso para RL estable y eficiente en contextos largos

Descubre cómo Sparrow acelera hasta 2.4x el rollout en RL de modelos de lenguaje usando atención dispersa dinámica sin perder estabilidad.

2026-06-09 · 2 min

MAGE: El bloque All-[MASK] sabe dónde mirar en difusión por bloques LLM

Con MAGE, la atención dispersa acelera hasta 6.82x la inferencia en contexto largo sin pérdida de precisión.

2026-06-08 · 2 min

Vortex: Atención dispersa eficiente y programable para agentes de IA

Vortex es un sistema que acelera el diseño de algoritmos de atención dispersa, logrando hasta 3.46x más rendimiento en LLMs. Ideal para agentes de IA que buscan optimizar la inferencia.

2026-06-06 · 1 min

Solo indexas una vez: atención dispersa entre capas con enrutamiento compartido

Optimiza la inferencia de LLMs con CLSA: atención dispersa entre capas que comparte índices de enrutamiento, logrando hasta 7.6x de aceleración en decodificación.

2026-06-05 · 3 min

Atención global y dispersa en RNN para valoración de activos financieros

Modelos de atención global y dispersa en RNN logran Sortino ratio de 2.0 en valoración de activos durante COVID-19. Resultados con 420 acciones de EE.UU.

2026-06-05 · 2 min

SparDA: Atención Dispersa Desacoplada para LLM de Contexto Largo

Descubre SparDA, una arquitectura que acelera la inferencia de LLM de contexto largo hasta 5.3x, reduciendo el cuello de botella del caché KV.

2026-06-04 · 3 min

VaSE: Evicción de Caché KV Estocástica Consciente del Valor

Descubre VaSE, un método de evicción de caché KV que protege valores grandes y usa estocasticidad para mejorar precisión en modelos de razonamiento. Reduce memoria 4x sin perder rendimiento.

2026-06-03 · 1 min

Vegas: Decodificación Auto-Especulativa con Atención Dispersa Verificada

Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.

2026-06-02 · 2 min

MURMUR: Sistema eficiente de inferencia para ASR de larga duración

Murmur: sistema de inferencia para ASR de larga duración que reduce la latencia 4.2x sin degradar la precisión. Atención dispersa y evicción de caché KV.

2026-06-02 · 3 min

Mueve la consulta, no el caché: atención entre instancias GPU

Mueve la consulta en lugar del caché KV y reduce la latencia en atención entre GPUs. Optimiza clusters H100 con RDMA.

2026-06-02 · 3 min

MiniMax-M3 debuta: supera GPT-5.5 y Gemini 3.1 Pro en benchmarks por 5-10% costo

MiniMax-M3: el modelo de IA abierto que supera a GPT-5.5 y Gemini en benchmarks clave, por solo el 5-10% del costo. ¡Conoce sus capacidades!

2026-06-02 · 3 min

MiniMax M3: arquitectura MSA, contexto 1M y multimodalidad nativa

MiniMax lanza M3 con arquitectura MSA, contexto de 1M de tokens y multimodalidad nativa. Supera a GPT-5.5 en SWE-Bench Pro. API ya disponible.

2026-06-02 · 2 min

Light Interaction: Aceleración sin entrenamiento para modelos de video interactivos

Light Interaction acelera hasta 2.59x la inferencia de modelos de video interactivos sin reentrenamiento, manteniendo calidad visual. Ideal para simulación y navegación virtual.

2026-06-01 · 2 min

OBCache: poda óptima de caché KV para LLMs de contexto largo

Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.

2026-06-01 · 2 min